GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则
GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则最新PRBench基准可以测试AI在金融和法律领域的表现。结果显示,即使是顶尖大模型在处理复杂任务时也表现不佳,尤其在涉及重大经济后果的任务中。PRBench通过模拟真实场景和多轮对话,揭示了AI在专业领域的不足,强调开发更可靠AI系统的重要性。
最新PRBench基准可以测试AI在金融和法律领域的表现。结果显示,即使是顶尖大模型在处理复杂任务时也表现不佳,尤其在涉及重大经济后果的任务中。PRBench通过模拟真实场景和多轮对话,揭示了AI在专业领域的不足,强调开发更可靠AI系统的重要性。
11 月 21 日,AI 初创公司 Genspark 正式宣布完成 2.75 亿美元 B 轮融资。上线仅五个月,Genspark 年化收入已突破 5000 万美元,跻身行业增长最快的 AI 企业之一。
想搭一个 AI 应用,就一定要走 Coding 这条路吗? 最近我干了件事:只用了一个飞书多维表格,把一堆 AI 效率产品的事给办了。起因是飞书多维表格全面上线了新功能,「应用模式」和「AI 工作流」。
AI Everywhere。 我们正进入一个万物皆 AI 的世界。 从《钢铁侠》中无所不能的助理「贾维斯」(him),到电影《她》里善解人意的情感伴侣「萨曼莎」(her),这些一度只存在于科幻中的场景
一家名为 Poly 的 YC 孵化创业公司宣布完成了 800 万美元的种子轮融资,由 Felicis 领投。这本身并不特别,但让我深感震撼的是他们想要解决的问题:彻底重新发明文件系统本身。Poly 的创始人 Abhay Agarwal 说了一句让我印象深刻的话:"在 AI 优先的世界里,文件系统本身必须进化。
11 月 3 日,全球知名游戏博主 PewDiePie 发布视频,展示其自建本地 AI 系统的全过程。该视频目前浏览量已经超过 300 万,视频标题则赫然写着双关梗 “STOP: Using AI Right now”。
近日,一家名为 CraftStory 的 AI 初创公司推出了 Model 2.0 视频生成系统,凭借可生成长达五分钟的富有表现力、可媲美专业水准、以人为中心的视频,破解了困扰 AI 视频生成行业长久以来的「视频时长」难题,引起热议,并被视为或将是 OpenAI 的 Sora 和 Google 的 Veo 的强有力竞争者。
别惊讶,下次给你卖课的健身教练,可能带了个「数字替身」
AI 洞见正在系统拆解全球增长最快、「估值超十亿美元」的 AI 企业,希望用真正跑通的商业模式,增强创业者进入 AI 的信心。
近期,《Arc Raiders》宣布即将推出双人合作模式,以及类似《Helldivers 2》的社区任务活动——但在玩家还没来得及为新玩法兴奋之前,这款游戏的开发商 Embark Studios 却陷入了另一场更棘手的争议:再度被曝使用生成式 AI 进行游戏配音。